39 gjuhë automatikisht: si përkthimi ynë me AI trajton terminologjinë e specializuar

39 gjuhë automatikisht: si përkthimi ynë me AI trajton terminologjinë e specializuar

Një vështrim pas skenave në përkthimin tonë të automatizuar të të dhënave të produkteve - dhe pse terminologjia e specializuar duhet të trajtohet ndryshe nga një roman.

Përkthimi me makinë tani është aq i mirë sa, në shumë raste, është i pandashëm nga përkthimi njerëzor. Shërbimet e përkthimit prodhojnë përkthime rrjedhëse, idiomatike, me ndjesi për regjistrin. Pastaj përkthen një grup të dhënash DPP - dhe papritmas ‘mbyllja me fibër me kyçje të pasme’ bëhet ‘Hinterschloss-Faserverschluss’.

Problemi është terminologjia teknike. Këtu shpjegojmë pse të dhënat e produktit nuk duhet të trajtohen si romane, dhe cilat mjete ofron Transpareo për të siguruar që 39 versionet tuaja gjuhësore të mbeten të kuptueshme.

Problemi themelor: një fjalë, kuptime të shumta

‘Seal’ në DPP për një xhaketë të jashtme: hidroizolim. ‘Seal’ në një laborator: një foca (kafshë) ose një xhontë, në varësi të kontekstit. ‘Seal’ në një regjistër mirëmbajtjeje: ndoshta një vulë.

Një model i përgjithshëm përkthimi bën zgjedhjen e tij bazuar në kontekstin statistikor. Kjo funksionon për tekst të vazhdueshëm - një roman ofron shumë kontekst. Por për një fushë të të dhënave si primary_closure: seal, pothuajse nuk ka fare kontekst. Modeli bën një supozim të arsyeshëm.

Rezultati janë gabime të holla. Jo aq dramatike sa ‘Hinterschloss-Faserverschluss’, por të rëndësishme: një komponent i quajtur ‘Dichtung’ në gjermanisht papritmas i referohet si ‘sigillo’ në vend të ‘guarnizione’ në një DPP italiane. Një blerës nuk mund ta gjejë më pjesën rezervë.

Çfarë arrin Transpareo sot

Sistemi ynë i përkthimit përkthen automatikisht çdo pjesë të re përmbajtjeje në të gjitha gjuhët aktive. Ai karakterizohet nga katër veçori kryesore:

  • Ruajtja e Markdown-it dhe e variablave: Vendvendosjet si <a href="/sq/regjistrohu">Pro-Membership</a> dhe strukturat Markdown nxirren para përkthimit; teksti i thjeshtë përkthehet, dhe pastaj strukturat rivendosen të paprekura. Kjo siguron që lidhjet, formularët dhe paraqitja të mbeten të qëndrueshme në të gjitha gjuhët.
  • Hyrje të centralizuara për përkthim: Përkthimet nuk ruhen brenda vetë regjistrit të të dhënave, por në një shtresë të përbashkët. Shumë regjistra të të dhënave me të njëjtin tekst burim ndajnë një përkthim të vetëm. Kjo kursen në kostot e përkthimit dhe standardizon automatikisht terminologjinë në të gjithë modelin e të dhënave.
  • Përkthim automatik i ri pas ndryshimeve: Nëse teksti origjinal ndryshohet, përkthimet në të gjitha gjuhët rigjenerohen. Një korrigjim në gjermanisht përditëson automatikisht 38 versionet e tjera gjuhësore.
  • Shënime për çdo regjistër të të dhënave: Përmbajtja mund të përjashtohet nga procesi automatik, ose përkthimet ekzistuese mund të bllokohen - për shembull, për emrat ndërkombëtarë të produkteve ose korrigjime manuale.

Kur klienti plotëson përpunimin

Përkthimi automatik kryesisht jep rezultate të sakta për tekstet përshkruese, kopjet e marketingut dhe udhëzimet e kujdesit. Megjithatë, me terminologjinë teknike kritike - si ‘seal’/’guarnizione’ - mbeten një numër i vogël gabimesh, të cilat administratori i klientit duhet t’i korrigjojë.

Këtu, administratori ka tre opsione:

  1. Ndryshim manual për gjuhë dhe çelës: Çdo hyrje përkthimi mund të hapet në Menaxherin e Aplikacionit dhe të rregullohet për secilën gjuhë. Duke zgjedhur opsionin ‘kyç’, ky përkthim manual do të ruhet në ekzekutimin automatik të ardhshëm.
  2. Importim i fjalorit: Terminologjia ekzistuese nga mjetet e përkthimit ose fjalorët PDF mund të importohet si skedar CSV dhe të përdoret për të gjeneruar hyrje përkthimi drejtpërdrejt.
  3. Korrigjime për çdo gjuhë ndërsa sistemi po funksionon: Një ekip shitjesh italian vëren një gabim, e korrigjon atë në Menaxherin e Aplikacionit - korrigjimi hyn në fuqi menjëherë, ndërsa përkthimet e tjera mbeten të paprekura.

Realiteti i gjuhëve të BE-së

24 gjuhë zyrtare të BE-së tingëllon shumë. Në praktikë, ato ndahen në tre kategori:

  • Tregjet kryesore: DE, EN, FR, IT, ES, NL - këtu, çdo konsumator pret përsosmëri
  • Tregje të rëndësishme: PT, PL, SV, DA, FI - një standard i mirë, megjithëse përkthimi me makinë herë pas here vihet re
  • Gjuha të rralla: MT, GA, ET, LV, LT - ndonjëherë keni një DPP në malteze pa asnjë konsumator përfundimtar në Maltë që ta skanojë ndonjëherë. Megjithatë, është i detyrueshëm.

Ky kërkesë nuk është fakultative. ESPR-ja kërkon që përmbajtja e DPP-së të ofrohet në gjuhën e Shtetit Anëtar ku shitet produkti. Pra, çdo kompani që shërben 27 vende ka për t’u marrë me 24 gjuhë (disa vende ndajnë gjuhë).

Pse një shtresë lokalizimi e centralizuar?

Shumica e platformave ruajnë përkthimet si fusha shtesë në regjistrin e të dhënave: description_de, description_en, … 39 fusha për çdo atribut të përkthyeshëm. Duket e thjeshtë, por ka tre të metë:

  • Tekst i dyfishtë. Dy produkte me të njëjtën shënim për materialin gjenerojnë 39 + 39 përkthime në vend të vetëm 39
  • E vështirë për t’u shkallëzuar. Shtimi i një gjuhe të 40-të nënkupton një migrim të skemës në të gjitha modelet e përkthyeshme
  • Korrigjimet janë të vështira për t’u aplikuar në mënyrë globale. Nëse ‘guarnizione’ korrigjohet kudo, të gjitha regjistrimet e të dhënave do të duhet të redaktohen individualisht

Shtresa e përkthimit e ndarë e zgjidh këtë: një hyrje, shumë referenca. Një korrigjim, të gjitha regjistrimet e të dhënave përfitojnë.

Çfarë nuk kemi ende

Një bazë të dhënash terminologjike e personalizuar me njohjen automatike të sugjerimeve është në zhvillim, por aktualisht nuk është e disponueshme. Çdokush që fillon sot mund të arrijë shumë me mjetet ekzistuese: mbishkrimet manuale, importet e fjalorit dhe flamuri ‘mbaje’ mbulojnë rastet më të zakonshme të përdorimit.

Ne besojmë se makinat duhet të bëjnë pjesën më të madhe të punës dhe se njerëzit duhet të ndërhyjnë vetëm kur është vërtet e nevojshme. Derisa të jetë e disponueshme njohja automatike e terminologjisë, procesi manual është transparent - dhe kjo është më e ndershme se një premtim që nuk mbahet.

Përditësime mbi shumëgjuhëshmërinë dhe praktikën e DPP-së

Gjuha të reja, cilësia e të dhënave dhe veçoritë e produkteve - të kuruara dhe të dorëzuara në kutinë tuaj të postës elektronike një herë në muaj.